max rank | avg. rank | sentence |
---|---|---|
90 | 34.2222 | Bu da hiç bir zaman fazla bir şey değil. |
108 | 39.0000 | Çünkü bu bizim için çok çok önemli. |
205 | 84.6667 | Ve o alan benim için çok özel bir alan. |
222 | 70.8750 | İstanbul benim için çok iyi bir yer oldu. |
296 | 101.0000 | “Bu seçim sadece iki aday arasında değil. |
333 | 88.8750 | Türkiye eski Türkiye değil, Türkiye güçlü bir Türkiye. |
357 | 166.6667 | Bir belediye böyle nasıl başarılı olur? |
424 | 129.7143 | “O kadar çok kötü haber var ki yani hiç mi iyi bir haber yok?” |
465 | 150.8571 | Biz bunu açık bir şekilde ifade ediyoruz. |
487 | 151.4286 | Burada başka önemli bir sorun daha var. |
497 | 243.1667 | Bunun yanında Devlet Bakanlığı da yaptı. |
501 | 279.0000 | Türkiye’de gerçekten kadın olmak zor. |
501 | 134.5000 | Türkiye gerçekten çok önemli bir ülke. |
509 | 196.5556 | Ama buna rağmen arada çok büyük bir fark vardı. |
515 | 107.1250 | Ancak son yıllarda başka bir şey daha oldu. |
521 | 107.3750 | Böyle bir şey yok, böyle bir şey yok. |
540 | 228.5000 | Biz pek çok alanda aynı anda mücadele ediyoruz. |
558 | 235.8889 | Sadece AK Parti tarihi açısından değil, Türkiye tarihi açısından. |
558 | 187.0000 | Sadece biz değil, bütün dünya söyledi. |
561 | 226.4000 | Ancak şu da bir gerçek ki Cumhurbaşkanı hükümet demek değildir. |
571 | 229.0000 | Burada bütün bunlar kolay bir iş değil. |
572 | 211.1250 | Bu sene de böyle bir çalışma yapmak istiyoruz. |
581 | 256.2500 | Bu arada bir de Cumhurbaşkanı adayı için 100 bin imza sorunu var. |
583 | 188.3333 | Hem güzel, hem de başarılı olmak çok mu zor? |
625 | 226.7500 | "AK Parti diyen fazla olsa da MHP ve CHP diyen de var'. |
639 | 124.7778 | Artık eski Türkiye yok, bu Türkiye yeni Türkiye." |
639 | 241.7143 | Artık Türkiye’nin önünde yeni bir yol vardı. |
662 | 202.1250 | Bir gün geçti yok, iki gün geçti yok. |
671 | 261.6250 | O zor anda bu kararı vermek kolay değil. |
673 | 324.2500 | Bugün herkes devletin yanında, bugün herkes Türkiye’nin yanında. |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II